{ "cells": [ { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "# Metodología para clasificación\n", "### Aprendizaje Automático - Instituto de Computación - UdelaR\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## Metodología para clasificación\n", "\n", "- Indepedientemente del método utilizado, existen etapas comunes para poder hacer aprendizaje supervisado (en particular, clasificación).\n", "\n", "- ¿Cuál es nuestra tarea?: dado un conjunto $X$ de instancias independientes con una cierta distribución $D$, cada una de ellas con una clase $y$ asociada, queremos construir una función de clasificación que, dada una instancia nueva, nos devuelva su clase. \n", "\n", "- Algunas preguntas: ¿cómo aprendo la función?, ¿sobre qué instancias?, ¿cómo evalúo la performance de la función?\n", "\n", "\"Drawing\"\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## Fase 1: Preprocesamiento" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "- Vamos a suponer que, para poder entrenar un clasificador, debemos partir de un conjunto $D = \\{(x_i,y_i)\\}$, llamado conjunto de entrenamiento, donde cada instancia $x_i \\in \\mathbb{R}^n$ y $y_i \\in \\mathbb{R}$ (no todos los algoritmos de aprendizaje necesitan este formato de entrada, es solamente para fijar ideas)\n", "\n", "- (Des) afortunadamente, los conjuntos de datos que generalmente disponemos surgen de sensores, datos ingresados por humanos, fuentes diferentes, etc. Por lo tanto, debemos limpiarlos (_data cleaning_).\n", "\n", "- El formato de los datos originales puede ser diverso: elementos de un conjunto (categóricos), fechas, textos, imágenes, etc. Debemos buscar formas para convertirlos a un formato aceptable por el algoritmo (_data transformation_)." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "- Nuestros datos pueden venir de diferentes fuentes, debemos integrarlos (_data integration_)\n", "\n", "- Puede que, para ser más eficientes en los tiempos de aprendizaje, sea necesario agrupar datos, eliminar atributos o reducir el numero de instancias, buscando no perder infromación (_data reduction_)\n", "\n", "![Data Preprocessing](https://miro.medium.com/max/628/1*d1P90NT33rRKlJT7opFO8w.png)\n", "\n", "Fuente de la imgen: [Data Preprocessing](https://medium.com/@silicon.smile1/data-preprocessing-b1552b4060f3) - Umar Farooq " ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "#### Titanic\n", "\n", "Trabajaremos con un ejemplo utilizando pandas (ya que estamos, importamos otras bibliotecas que probablemente utilicemos). \n", "- Titanic Dataset: listado de pasajeros del Titanic, indicando si sobrevivieron o no. Más detalles [aquí](https://www.kaggle.com/c/titanic). " ] }, { "cell_type": "code", "execution_count": 29, "metadata": { "slideshow": { "slide_type": "fragment" } }, "outputs": [], "source": [ "import numpy as np\n", "import pandas as pd\n", "import sklearn\n", "import sklearn.preprocessing\n", "import sklearn.feature_selection\n", "pd.options.mode.chained_assignment = 'warn' # default='warn'\n", "import graphviz\n" ] }, { "cell_type": "code", "execution_count": 30, "metadata": { "slideshow": { "slide_type": "slide" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
row.namespclasssurvivednameageembarkedhome.destroomticketboatsex
011st1Allen, Miss Elisabeth Walton29.0000SouthamptonSt Louis, MOB-524160 L2212female
121st0Allison, Miss Helen Loraine2.0000SouthamptonMontreal, PQ / Chesterville, ONC26NaNNaNfemale
231st0Allison, Mr Hudson Joshua Creighton30.0000SouthamptonMontreal, PQ / Chesterville, ONC26NaN(135)male
341st0Allison, Mrs Hudson J.C. (Bessie Waldo Daniels)25.0000SouthamptonMontreal, PQ / Chesterville, ONC26NaNNaNfemale
451st1Allison, Master Hudson Trevor0.9167SouthamptonMontreal, PQ / Chesterville, ONC22NaN11male
....................................
130813093rd0Zakarian, Mr ArtunNaNNaNNaNNaNNaNNaNmale
130913103rd0Zakarian, Mr MapriederNaNNaNNaNNaNNaNNaNmale
131013113rd0Zenn, Mr PhilipNaNNaNNaNNaNNaNNaNmale
131113123rd0Zievens, ReneNaNNaNNaNNaNNaNNaNfemale
131213133rd0Zimmerman, LeoNaNNaNNaNNaNNaNNaNmale
\n", "

1313 rows × 11 columns

\n", "
" ], "text/plain": [ " row.names pclass survived \\\n", "0 1 1st 1 \n", "1 2 1st 0 \n", "2 3 1st 0 \n", "3 4 1st 0 \n", "4 5 1st 1 \n", "... ... ... ... \n", "1308 1309 3rd 0 \n", "1309 1310 3rd 0 \n", "1310 1311 3rd 0 \n", "1311 1312 3rd 0 \n", "1312 1313 3rd 0 \n", "\n", " name age embarked \\\n", "0 Allen, Miss Elisabeth Walton 29.0000 Southampton \n", "1 Allison, Miss Helen Loraine 2.0000 Southampton \n", "2 Allison, Mr Hudson Joshua Creighton 30.0000 Southampton \n", "3 Allison, Mrs Hudson J.C. (Bessie Waldo Daniels) 25.0000 Southampton \n", "4 Allison, Master Hudson Trevor 0.9167 Southampton \n", "... ... ... ... \n", "1308 Zakarian, Mr Artun NaN NaN \n", "1309 Zakarian, Mr Maprieder NaN NaN \n", "1310 Zenn, Mr Philip NaN NaN \n", "1311 Zievens, Rene NaN NaN \n", "1312 Zimmerman, Leo NaN NaN \n", "\n", " home.dest room ticket boat sex \n", "0 St Louis, MO B-5 24160 L221 2 female \n", "1 Montreal, PQ / Chesterville, ON C26 NaN NaN female \n", "2 Montreal, PQ / Chesterville, ON C26 NaN (135) male \n", "3 Montreal, PQ / Chesterville, ON C26 NaN NaN female \n", "4 Montreal, PQ / Chesterville, ON C22 NaN 11 male \n", "... ... ... ... ... ... \n", "1308 NaN NaN NaN NaN male \n", "1309 NaN NaN NaN NaN male \n", "1310 NaN NaN NaN NaN male \n", "1311 NaN NaN NaN NaN female \n", "1312 NaN NaN NaN NaN male \n", "\n", "[1313 rows x 11 columns]" ] }, "execution_count": 30, "metadata": {}, "output_type": "execute_result" } ], "source": [ "titanic=pd.read_csv('https://raw.githubusercontent.com/pln-fing-udelar/curso_aa/master/data/titanic.csv')\n", "titanic" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Conjunto de entrenamiento y Testeo. Accuracy (Spoiler)\n", "\n", "\"Drawing\"\n", "\n", "\n", "- Separación inicial: conjunto de entrenamiento y de evaluación. \n", "\n", "- Cuantas más instancias para entrenar tengamos, probablemente mejor será nuestro modelo, PERO...\n", "\n", "- Cuantas más intancias para evaluar tengamos, menor será la varianza de nuestros resultados.\n", "\n", "- Usualmente se divide como 80%-20%, o 70%-30%\n", "\n", "- Accuracy: proporción de las instancias del conjunto de evaluación que nuestro modelo clasifica correctamente\n", "\n", "Fuente de la imagen: [About Train, Validation and Test Sets in Machine Learning](https://towardsdatascience.com/train-validation-and-test-sets-72cb40cba9e7) - Tarang Shah" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Titanic: división del conjunto de entrenamiento" ] }, { "cell_type": "code", "execution_count": 31, "metadata": { "slideshow": { "slide_type": "fragment" } }, "outputs": [ { "data": { "text/plain": [ "(984, 10)" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/plain": [ "(329, 10)" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Primero separamos las X de las y. \n", "titanic_X = titanic.drop(['survived'], axis=1, inplace=False)\n", "titanic_y = titanic[['survived']]\n", "\n", "# Construimos los corpus de entrenamiento y test\n", "\n", "from sklearn.model_selection import train_test_split\n", "X_train, X_test, y_train, y_test = train_test_split(titanic_X, titanic_y, test_size=0.25, random_state=33)\n", "\n", "display(X_train.shape)\n", "display(X_test.shape)\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Valores faltantes\n", "\n", "\n", "- ¿qué hacemos si algún atributo de alguna instancia no tiene asignado un valor?\n", "\n", "- Opción 1: eliminar instancias. Problema: reduce el dataset.\n", "\n", "- Opción 2: asignar un valor especial (UNK, -1, 0, etc). Esto indica que, si faltan datos, quiere decir algo. \n", "\n", "- Opción 3: asignar el valor medio (o la mediana, o la moda) del atributo en el conjunto de entrenamiento\n", "\n", "- Opción 4: asignar según el método de aprendizaje que estemos utilizando (e.g. lo visto en Árboles de Decisión)\n", "\n", "Observación: estos cambios aplican a todo el dataset, pero cualquier cálculo de estadística debe hacerse sobre el conjunto de entrenamiento \n", "\n", "- Algunos detalles en Python: [How to handle missing data with Python](https://machinelearningmastery.com/handle-missing-data-python/) - Jason Brownlee\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Titanic: atributos faltantes\n", "\n", "Sustiuimos las edades que nos faltan por el promedio" ] }, { "cell_type": "code", "execution_count": 32, "metadata": { "slideshow": { "slide_type": "fragment" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
row.namespclassnameageembarkedhome.destroomticketboatsex
108610873rdOlsen, Master ArthurNaNNaNNaNNaNNaNNaNmale
12131stAubert, Mrs Leontine PaulineNaNCherbourgParis, FranceB-3517477 L69 6s9female
103610373rdMoubarek, Master William GeorgeNaNNaNNaNNaNNaNNaNmale
8338343rdGronnestad, Mr Daniel Danielsen32.0SouthamptonForesvik, Norway Portland, NDNaNNaNNaNmale
110811093rdPaulsson, Master Gosta LeonardNaNNaNNaNNaNNaNNaNmale
.................................
122512263rdStankovic, Mr JovanNaNNaNNaNNaNNaNNaNmale
6586593rdBaclini, Miss HeleneNaNCherbourgSyria New York, NYNaNNaNNaNfemale
5785792ndWatt, Miss Bertha12.0SouthamptonAberdeen / Portland, ORNaNNaN9female
3913922ndDibden, Mr William18.0SouthamptonNew Forest, EnglandNaNNaNNaNmale
104410453rdMurphy, Miss MargaretNaNNaNNaNNaNNaNNaNfemale
\n", "

984 rows × 10 columns

\n", "
" ], "text/plain": [ " row.names pclass name age embarked \\\n", "1086 1087 3rd Olsen, Master Arthur NaN NaN \n", "12 13 1st Aubert, Mrs Leontine Pauline NaN Cherbourg \n", "1036 1037 3rd Moubarek, Master William George NaN NaN \n", "833 834 3rd Gronnestad, Mr Daniel Danielsen 32.0 Southampton \n", "1108 1109 3rd Paulsson, Master Gosta Leonard NaN NaN \n", "... ... ... ... ... ... \n", "1225 1226 3rd Stankovic, Mr Jovan NaN NaN \n", "658 659 3rd Baclini, Miss Helene NaN Cherbourg \n", "578 579 2nd Watt, Miss Bertha 12.0 Southampton \n", "391 392 2nd Dibden, Mr William 18.0 Southampton \n", "1044 1045 3rd Murphy, Miss Margaret NaN NaN \n", "\n", " home.dest room ticket boat sex \n", "1086 NaN NaN NaN NaN male \n", "12 Paris, France B-35 17477 L69 6s 9 female \n", "1036 NaN NaN NaN NaN male \n", "833 Foresvik, Norway Portland, ND NaN NaN NaN male \n", "1108 NaN NaN NaN NaN male \n", "... ... ... ... ... ... \n", "1225 NaN NaN NaN NaN male \n", "658 Syria New York, NY NaN NaN NaN female \n", "578 Aberdeen / Portland, OR NaN NaN 9 female \n", "391 New Forest, England NaN NaN NaN male \n", "1044 NaN NaN NaN NaN female \n", "\n", "[984 rows x 10 columns]" ] }, "execution_count": 32, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train" ] }, { "cell_type": "code", "execution_count": 33, "metadata": { "slideshow": { "slide_type": "slide" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cantidad de instancias sin valor: 517\n" ] }, { "data": { "text/plain": [ "'Valor de mean_age:31.02962141327623'" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Contamos cuántos NaN son\n", "print(\"Cantidad de instancias sin valor: {0}\".format(X_train['age'].isnull().sum()))\n", "\n", "# Vemos el promedio de edad de los sobrevivientes, según la clase\n", "mean_age=X_train[\"age\"].mean()\n", "display('Valor de mean_age:'+str(mean_age))\n", "\n", "# Actualizamos con la mean_age de cada grupo tanto entrenamiento como evaluación\n", "X_train.loc[X_train['age'].isnull(),'age']=mean_age\n", "X_test.loc[X_test['age'].isnull(),'age']=mean_age\n", "\n" ] }, { "cell_type": "code", "execution_count": 34, "metadata": { "slideshow": { "slide_type": "slide" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
row.namespclassnameageembarkedhome.destroomticketboatsex
108610873rdOlsen, Master Arthur31.029621NaNNaNNaNNaNNaNmale
12131stAubert, Mrs Leontine Pauline31.029621CherbourgParis, FranceB-3517477 L69 6s9female
103610373rdMoubarek, Master William George31.029621NaNNaNNaNNaNNaNmale
8338343rdGronnestad, Mr Daniel Danielsen32.000000SouthamptonForesvik, Norway Portland, NDNaNNaNNaNmale
110811093rdPaulsson, Master Gosta Leonard31.029621NaNNaNNaNNaNNaNmale
.................................
122512263rdStankovic, Mr Jovan31.029621NaNNaNNaNNaNNaNmale
6586593rdBaclini, Miss Helene31.029621CherbourgSyria New York, NYNaNNaNNaNfemale
5785792ndWatt, Miss Bertha12.000000SouthamptonAberdeen / Portland, ORNaNNaN9female
3913922ndDibden, Mr William18.000000SouthamptonNew Forest, EnglandNaNNaNNaNmale
104410453rdMurphy, Miss Margaret31.029621NaNNaNNaNNaNNaNfemale
\n", "

984 rows × 10 columns

\n", "
" ], "text/plain": [ " row.names pclass name age \\\n", "1086 1087 3rd Olsen, Master Arthur 31.029621 \n", "12 13 1st Aubert, Mrs Leontine Pauline 31.029621 \n", "1036 1037 3rd Moubarek, Master William George 31.029621 \n", "833 834 3rd Gronnestad, Mr Daniel Danielsen 32.000000 \n", "1108 1109 3rd Paulsson, Master Gosta Leonard 31.029621 \n", "... ... ... ... ... \n", "1225 1226 3rd Stankovic, Mr Jovan 31.029621 \n", "658 659 3rd Baclini, Miss Helene 31.029621 \n", "578 579 2nd Watt, Miss Bertha 12.000000 \n", "391 392 2nd Dibden, Mr William 18.000000 \n", "1044 1045 3rd Murphy, Miss Margaret 31.029621 \n", "\n", " embarked home.dest room ticket boat \\\n", "1086 NaN NaN NaN NaN NaN \n", "12 Cherbourg Paris, France B-35 17477 L69 6s 9 \n", "1036 NaN NaN NaN NaN NaN \n", "833 Southampton Foresvik, Norway Portland, ND NaN NaN NaN \n", "1108 NaN NaN NaN NaN NaN \n", "... ... ... ... ... ... \n", "1225 NaN NaN NaN NaN NaN \n", "658 Cherbourg Syria New York, NY NaN NaN NaN \n", "578 Southampton Aberdeen / Portland, OR NaN NaN 9 \n", "391 Southampton New Forest, England NaN NaN NaN \n", "1044 NaN NaN NaN NaN NaN \n", "\n", " sex \n", "1086 male \n", "12 female \n", "1036 male \n", "833 male \n", "1108 male \n", "... ... \n", "1225 male \n", "658 female \n", "578 female \n", "391 male \n", "1044 female \n", "\n", "[984 rows x 10 columns]" ] }, "execution_count": 34, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Atributos categóricos\n", "\n", "- Los atributos categóricos son atributos cuyos valores pertenecen a un conjunto discreto y finito (y, a veces, no numérico) \n", "\n", "- Opción 1: Cuando tenemos $n$ etiquetas, convertir a valores enteros en el rango $[0.. n-1]$. Problema: sigue siendo discreto, e induce un orden entre las etiquetas. Lo primero puede puede perjudicar a algoritmos que asumen valores continuos, lo segundo puede no representar la realidad.\n", "\n", "- Opción 2: one-hot-encoding. Creamos tantos atributos nuevos como etiquetas diferentes haya. En cada instancia, si el valor del atributo original es $i$, el atributo correspondiente al $i$-ésimo valor valdrá 1, y el resto valdrán 0." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Titanic: codificación de atributos categóricos\n", "\n" ] }, { "cell_type": "code", "execution_count": 35, "metadata": { "slideshow": { "slide_type": "fragment" } }, "outputs": [], "source": [ "# Creamos un labelEncoder utilizando scikit-learn\n", "le=sklearn.preprocessing.LabelEncoder()\n", "# Obtenemos las clases a partir de los valores del conjunto de entrenamiento\n", "le.fit(titanic['sex'])\n", "# Mostramos las clases obtenidas\n", "le.classes_\n", "# Ajustamos el campo sex, transformándolo\n", "\n", "X_train['sex'] = le.transform(X_train['sex'])\n", "X_test['sex'] = le.transform(X_test['sex'])" ] }, { "cell_type": "code", "execution_count": 27, "metadata": { "slideshow": { "slide_type": "slide" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
row.namespclassnameageembarkedhome.destroomticketboatsex
108610873rdOlsen, Master Arthur31.029621NaNNaNNaNNaNNaN1
12131stAubert, Mrs Leontine Pauline31.029621CherbourgParis, FranceB-3517477 L69 6s90
103610373rdMoubarek, Master William George31.029621NaNNaNNaNNaNNaN1
8338343rdGronnestad, Mr Daniel Danielsen32.000000SouthamptonForesvik, Norway Portland, NDNaNNaNNaN1
110811093rdPaulsson, Master Gosta Leonard31.029621NaNNaNNaNNaNNaN1
.................................
122512263rdStankovic, Mr Jovan31.029621NaNNaNNaNNaNNaN1
6586593rdBaclini, Miss Helene31.029621CherbourgSyria New York, NYNaNNaNNaN0
5785792ndWatt, Miss Bertha12.000000SouthamptonAberdeen / Portland, ORNaNNaN90
3913922ndDibden, Mr William18.000000SouthamptonNew Forest, EnglandNaNNaNNaN1
104410453rdMurphy, Miss Margaret31.029621NaNNaNNaNNaNNaN0
\n", "

984 rows × 10 columns

\n", "
" ], "text/plain": [ " row.names pclass name age \\\n", "1086 1087 3rd Olsen, Master Arthur 31.029621 \n", "12 13 1st Aubert, Mrs Leontine Pauline 31.029621 \n", "1036 1037 3rd Moubarek, Master William George 31.029621 \n", "833 834 3rd Gronnestad, Mr Daniel Danielsen 32.000000 \n", "1108 1109 3rd Paulsson, Master Gosta Leonard 31.029621 \n", "... ... ... ... ... \n", "1225 1226 3rd Stankovic, Mr Jovan 31.029621 \n", "658 659 3rd Baclini, Miss Helene 31.029621 \n", "578 579 2nd Watt, Miss Bertha 12.000000 \n", "391 392 2nd Dibden, Mr William 18.000000 \n", "1044 1045 3rd Murphy, Miss Margaret 31.029621 \n", "\n", " embarked home.dest room ticket boat sex \n", "1086 NaN NaN NaN NaN NaN 1 \n", "12 Cherbourg Paris, France B-35 17477 L69 6s 9 0 \n", "1036 NaN NaN NaN NaN NaN 1 \n", "833 Southampton Foresvik, Norway Portland, ND NaN NaN NaN 1 \n", "1108 NaN NaN NaN NaN NaN 1 \n", "... ... ... ... ... ... ... \n", "1225 NaN NaN NaN NaN NaN 1 \n", "658 Cherbourg Syria New York, NY NaN NaN NaN 0 \n", "578 Southampton Aberdeen / Portland, OR NaN NaN 9 0 \n", "391 Southampton New Forest, England NaN NaN NaN 1 \n", "1044 NaN NaN NaN NaN NaN 0 \n", "\n", "[984 rows x 10 columns]" ] }, "execution_count": 27, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train" ] }, { "cell_type": "code", "execution_count": 36, "metadata": { "slideshow": { "slide_type": "slide" } }, "outputs": [ { "data": { "text/plain": [ "[array(['1st', '2nd', '3rd'], dtype=object)]" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Utilizamos scikit-learn para crear un one-hot-encoder\n", "ohe=sklearn.preprocessing.OneHotEncoder(sparse_output=False)\n", "\n", "# Obtenemos las categorías a partir de los datos de entrenamiento\n", "# Observemos que aquí utilizo todo el dataset, porque la decisión no involucra el aprendizaje\n", "ohe.fit(titanic['pclass'].to_numpy().reshape(-1,1))\n", "display(ohe.categories_)\n", "\n", "# Obtenemos los nuevos valores a partir del valor original\n", "new_train=ohe.transform(X_train['pclass'].to_numpy().reshape(-1,1))\n", "new_test =ohe.transform(X_test['pclass'].to_numpy().reshape(-1,1))\n", "\n", "\n", "# Creamos nuevos atributos\n", "X_train['class_1st']=new_train[:,0]\n", "X_train['class_2nd']=new_train[:,1]\n", "X_train['class_3rd']=new_train[:,2]\n", "X_test['class_1st']=new_test[:,0]\n", "X_test['class_2nd']=new_test[:,1]\n", "X_test['class_3rd']=new_test[:,2]\n" ] }, { "cell_type": "code", "execution_count": 12, "metadata": { "slideshow": { "slide_type": "slide" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
row.namespclassnameageembarkedhome.destroomticketboatsexclass_1stclass_2ndclass_3rd
108610873rdOlsen, Master Arthur31.029621NaNNaNNaNNaNNaNmale0.00.01.0
12131stAubert, Mrs Leontine Pauline31.029621CherbourgParis, FranceB-3517477 L69 6s9female1.00.00.0
103610373rdMoubarek, Master William George31.029621NaNNaNNaNNaNNaNmale0.00.01.0
8338343rdGronnestad, Mr Daniel Danielsen32.000000SouthamptonForesvik, Norway Portland, NDNaNNaNNaNmale0.00.01.0
110811093rdPaulsson, Master Gosta Leonard31.029621NaNNaNNaNNaNNaNmale0.00.01.0
..........................................
122512263rdStankovic, Mr Jovan31.029621NaNNaNNaNNaNNaNmale0.00.01.0
6586593rdBaclini, Miss Helene31.029621CherbourgSyria New York, NYNaNNaNNaNfemale0.00.01.0
5785792ndWatt, Miss Bertha12.000000SouthamptonAberdeen / Portland, ORNaNNaN9female0.01.00.0
3913922ndDibden, Mr William18.000000SouthamptonNew Forest, EnglandNaNNaNNaNmale0.01.00.0
104410453rdMurphy, Miss Margaret31.029621NaNNaNNaNNaNNaNfemale0.00.01.0
\n", "

984 rows × 13 columns

\n", "
" ], "text/plain": [ " row.names pclass name age \\\n", "1086 1087 3rd Olsen, Master Arthur 31.029621 \n", "12 13 1st Aubert, Mrs Leontine Pauline 31.029621 \n", "1036 1037 3rd Moubarek, Master William George 31.029621 \n", "833 834 3rd Gronnestad, Mr Daniel Danielsen 32.000000 \n", "1108 1109 3rd Paulsson, Master Gosta Leonard 31.029621 \n", "... ... ... ... ... \n", "1225 1226 3rd Stankovic, Mr Jovan 31.029621 \n", "658 659 3rd Baclini, Miss Helene 31.029621 \n", "578 579 2nd Watt, Miss Bertha 12.000000 \n", "391 392 2nd Dibden, Mr William 18.000000 \n", "1044 1045 3rd Murphy, Miss Margaret 31.029621 \n", "\n", " embarked home.dest room ticket boat \\\n", "1086 NaN NaN NaN NaN NaN \n", "12 Cherbourg Paris, France B-35 17477 L69 6s 9 \n", "1036 NaN NaN NaN NaN NaN \n", "833 Southampton Foresvik, Norway Portland, ND NaN NaN NaN \n", "1108 NaN NaN NaN NaN NaN \n", "... ... ... ... ... ... \n", "1225 NaN NaN NaN NaN NaN \n", "658 Cherbourg Syria New York, NY NaN NaN NaN \n", "578 Southampton Aberdeen / Portland, OR NaN NaN 9 \n", "391 Southampton New Forest, England NaN NaN NaN \n", "1044 NaN NaN NaN NaN NaN \n", "\n", " sex class_1st class_2nd class_3rd \n", "1086 male 0.0 0.0 1.0 \n", "12 female 1.0 0.0 0.0 \n", "1036 male 0.0 0.0 1.0 \n", "833 male 0.0 0.0 1.0 \n", "1108 male 0.0 0.0 1.0 \n", "... ... ... ... ... \n", "1225 male 0.0 0.0 1.0 \n", "658 female 0.0 0.0 1.0 \n", "578 female 0.0 1.0 0.0 \n", "391 male 0.0 1.0 0.0 \n", "1044 female 0.0 0.0 1.0 \n", "\n", "[984 rows x 13 columns]" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train" ] }, { "cell_type": "code", "execution_count": 37, "metadata": { "slideshow": { "slide_type": "slide" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
agesexclass_1stclass_2ndclass_3rd
108631.02962110.00.01.0
1231.02962101.00.00.0
103631.02962110.00.01.0
83332.00000010.00.01.0
110831.02962110.00.01.0
..................
122531.02962110.00.01.0
65831.02962100.00.01.0
57812.00000000.01.00.0
39118.00000010.01.00.0
104431.02962100.00.01.0
\n", "

984 rows × 5 columns

\n", "
" ], "text/plain": [ " age sex class_1st class_2nd class_3rd\n", "1086 31.029621 1 0.0 0.0 1.0\n", "12 31.029621 0 1.0 0.0 0.0\n", "1036 31.029621 1 0.0 0.0 1.0\n", "833 32.000000 1 0.0 0.0 1.0\n", "1108 31.029621 1 0.0 0.0 1.0\n", "... ... ... ... ... ...\n", "1225 31.029621 1 0.0 0.0 1.0\n", "658 31.029621 0 0.0 0.0 1.0\n", "578 12.000000 0 0.0 1.0 0.0\n", "391 18.000000 1 0.0 1.0 0.0\n", "1044 31.029621 0 0.0 0.0 1.0\n", "\n", "[984 rows x 5 columns]" ] }, "execution_count": 37, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Elminamos atributos que no vamos a utilizar para el aprendizaje\n", "# Esto podríamos afinarlo usando Feature Selection\n", "X_train.drop(['row.names','pclass', 'name', 'embarked', 'home.dest', 'room', 'ticket', 'boat'], axis=1, inplace=True)\n", "X_test.drop(['row.names','pclass', 'name', 'embarked', 'home.dest', 'room', 'ticket', 'boat'], axis=1, inplace=True)\n", "\n", "X_train" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Ingeniería de atributos - Textos\n", "\n", "- Método tradicional: Bag of Words (BOW): a partir de un vocabulario (lista de palabras del lenguaje), \n", "construimos un vector con un atributo por palabra. Valores que toma:\n", "\n", " - 1/0: 1 indica que la palabra existe en el texto, 0 que no. \n", " - Cantidad de ocurrencias de la palabra en el texto (eventualmente normalizada, dividiendo sobre el total de palabras del documento)\n", " - tf-idf: pondera la frecuencia de la palabra viendo qué tan común es en general (un valor alto indica que la palabra es común en el texto de la instancia, pero rara en el dataset).\n", " \n", " - $ tf = \\frac{count}{total}$, siendo $count$ el número de ocurrencias de la palabra en el texto, y $total$ el número total de palabras en el texto\n", " - $ idf = \\log\\frac{N}{n}$, siendo $N$ el número de instancias del conjunto, y $n$ el número de instancias donde la palabra aparece en el texto\n", " - $tf.idf = td \\times idf$\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Ingeniería de atributos - Textos\n", "\n", "Ejercicio: supongamos que la palabra \"the\" aparece en 98 de 100 documentos (instancias), y en mi instancia aparece 9 veces (el documento tiene 200 palabras). Análogamente \"computer\" aparece 3 veces en mi texto, y en 8 de 100 instancias. Construya los vectores según los criterios descritos. El total de palabras distintas en el corpus es 850, pero solamente vamos a utilizar las 300 más comunes (es decir que el vector de cada instancia tendrá 300 elementos). \n", "- Valor para la posición correspondiente a la palabra \"the\":\n", " - Si usamos 1/0: 1 (la palabra aparecen en la instancia)\n", " - Si usamos cant. ocurrencias: 9\n", " - Si usamos cant. ocurrencias, normalizado: 9/200 = 0.045\n", " - Si usamos tf-idf: $\\frac{9}{200} \\cdot \\log \\frac{100}{98} = 9.09 \\times 10^{-4}$\n", "\n", "- Valor para la posición correspondiente a la palabra \"computer\":\n", " - Si usamos 1/0: 1 (la palabra aparecen en la instancia)\n", " - Si usamos cant. ocurrencias: 3\n", " - Si usamos cant. ocurrencias, normalizado: 3/200 = 0.015\n", " - Si usamos tf-idf: $\\frac{3}{200} \\cdot \\log \\frac{100}{8} = 0.037$" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Ingeniería de atributos - Textos\n", "\n", "- Antes de crear los vectores, es usual preprocesar el texto: dividir en tokens, eliminar palabras muy comunes (stop words), hacer lematización (buscar representantes comunes a varias palabras relacionadas). \n", "- El enfoque BOW no tiene en cuenta el orden de las palabras. Una mejora: en vez de palabras, contar n-gramas (secuencias de n palabras). A este enfoque se lo llama también bag-of-ngrams.\n", "- Podemos imaginar a una representación de conteo normalizado BOW como una suma de vectores one-hot-encoded, uno por cada palabra, donde en la posición de la palabra está el valor correspondiente al conteo, y el resto de las posiciones son 0. \n", "\n", "$$\n", "x = \\frac{1}{|D|}\\sum_{i=1}^{|D|} x^{D_{[i]}}\n", "$$\n", "\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Ingeniería de atributos - Textos\n", "\n", "- Problemas de las representaciones anteriores: son muy dispersas (en cada instancia hay muchos atributos con valor 0). No hay noción de similaridad entre palabras, si nuestra base de representación para una palabra es un one-hot-encoding.\n", "- Hoy prácticamente todos los métodos en el estado del arte utilizan _word embeddings_: se generan vectores densors de baja dimensionalidad (50-200 atributos), y con algunas propiedades interesantes, a partir del contexto en el que aparece cada palabra usualmente. \n", "\n", "\n", "Si quieren saber más sobre textos y cómo procesarlos, pueden hacer el curso [Introducción al Procesamiento del Lenguaje Natural](https://eva.fing.edu.uy/course/view.php?id=211), o [Redes Neuronales para Lenguaje Natural](https://eva.fing.edu.uy/course/view.php?id=1758) dictado en esta misma institución, por este mismo grupo de investigación." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Estandarización de atributos\n", "\n", "- Muchos algoritmos en aprendizaje automático (e.g. knn, redes neuronales, PCA) se benefician de que los atributos continuos tengan aproximadamente el mismo orden de magnitud. Esto se debe, por ejemplo, a que se utiliza la distancia euclidiana y se busca que todos los atributos \"pesen\" igual al calcularla. En el caso de algoritmos que utilizan descenso por gradiente, puede haber mucha diferencia en performance. \n", "\n", "- Min-max scaling: este escalado deja los valores en el rango $[0-1]$. Dado un valor $x$, obtenemos:\n", "\n", " $ x_s = \\frac{x - x_{min}}{x_{max} - x_{min}}$\n", " \n", " siendo $x_{min}$ y $x_{max}$ los valores mínimo y máximo respectivamente en el dataset\n", " \n", "- Normalización: se escalan los atributos para que tengan las propiedades de una distribución normal estándar, con $\\mu = 0$ y $\\sigma = 1$. \n", "\n", " $ x_{norm} = \\frac{x_i - \\mu_{i}}{s_i} $\n", " \n", " siendo $\\mu_{i}$ la media y $s_i$ la desviación estándar de la muestra.\n", " \n", " \n", " " ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "Ejercicio: normalice los siguientes valores utilizando los dos métodos anteriores: $\\{85,35,42,8,15, 22\\}$. ¿En qué rango quedan los valores obtenidos por normalización?\n", "\n", "- Valor mínimo: 8\n", "- Valor máximo: 85\n", "- Valores escalados min-max: {1,0.35, 0.44, 0, 0.09, 0.18}\n", "\n", "\n", "\n", "- Media: $\\frac{85+35+42+8+15+22}{6} = 34.50 $\n", "- Desviación estándar: $\\sqrt{(85 -34.5)^2 + \\ldots + (22 - 34.5)^2} = 25.32$\n", "- Valores normalizados: $\\{ 1.99, 0.02, 0.3, -1.05, -0.77, -0.49\\}$\n", "\n", "(Verifique que los nuevos valores tienen media 0 y desviación estándar 1)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "- Lectura: [About standarization](https://sebastianraschka.com/Articles/2014_about_feature_scaling.html) - Sebastian Rashcka\n", "- Nota: la estandarización, así como la selección de los atributos, debe hacerse durante el entrenamiento (no antes). Véase [este link](https://stats.stackexchange.com/questions/77350/perform-feature-normalization-before-or-within-model-validation) por más detalles.\n", "\n" ] }, { "cell_type": "code", "execution_count": 38, "metadata": { "slideshow": { "slide_type": "slide" } }, "outputs": [ { "data": { "text/plain": [ "[]" ] }, "execution_count": 38, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "import numpy as np\n", "import matplotlib.pyplot as plt\n", "\n", "x=[1,2,3,4,5,6]\n", "valores = np.array([85,35,42,8,15,22])\n", "\n", "valores_escalados = np.array([1,0.35,0.44,0,0.09,0.18])\n", "\n", "valores_estandarizados = np.array([1.99,0.02,0.3,-1.05,-0.77,-0.49])\n", "\n", "fig, axs = plt.subplots(3)\n", "axs[0].plot(x, valores)\n", "axs[1].plot(x, valores_escalados)\n", "axs[2].plot(x, valores_estandarizados)\n", "\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## Fase 2: División del Conjunto de Datos" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Conjunto de entrenamiento, testeo, [y validación]\n", "\n", "\n", "- Debemos asegurar, para evitar el sobreajuste (_overfitting_), que la evaluación del modelo se realice en un conjunto de datos distinto a aquel sobre el cual se entrenó. \n", "\n", "- Sobreajuste: nuestro modelo tiene buen rendimiento sobre el dataset de entrenamiento, pero sus resultados son muy inferiores cuando se encuentra a datos no vistos previamente. Causa probable: el modelo está memorizando los datos de entrenamiento, sin poder generalizar. \n", "\n", "- Si evaluamos sobre el mismo conjunto de datos sobre el que entrenamos, no podemos saber si estamos sobreajustando. **Sobreajustar es el peligro mayor cuando hacemos aprendizaje automático**" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Conjunto de entrenamiento, testeo, [y validación]\n", "\n", "\"Drawing\"\n", "\n", "\n", "[Ejemplo COVID-19 en Uruguay](https://github.com/gmonce/datascience/blob/master/src/Sobreajustando.ipynb)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Conjunto de entrenamiento, testeo, [y validación]\n", "\n", "\"Drawing\"\n", "\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Conjunto de entrenamiento, testeo, [y validación]\n", "\n", "\"Drawing\"\n", "\n", "\n", "- Separación inicial: conjunto de entrenamiento y de evalución. \n", "\n", "- Cuantas más instancias para entrenar tengamos, probablemente mejor será nuestro modelo, PERO...\n", "\n", "- Cuantas más intancias para evaluar tengamos, menor será la varianza de nuestros resultados.\n", "\n", "- Usualmente se divide como 80%-20%, o 70%-30%\n", "\n", "Fuente de la imagen: [About Train, Validation and Test Sets in Machine Learning](https://towardsdatascience.com/train-validation-and-test-sets-72cb40cba9e7) - Tarang Shah" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Conjunto de validación\n", "\n", "- Si queremos ajustar los parámetros del modelo (lo veremos en breve), no es conveniente hacerlo en el conjunto de evaluación (ya que podríamos estar sobreajustando, nuevamente). \n", "\n", "- Opción 1: separar una parte del conjunto de entrenamiento para utilizarlo en esa etapa\n", "\n", "- Opción 2: utilizar validación cruzada (cross-validation)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Estratificación\n", "\n", "- Aunque no queremos que la evaluación se realice en el conjunto de entrenamiento, sí nos interesa que la distribución de los ejemplos en uno y otro sea similar.\n", "\n", "- Al hacer la división de los conjuntos, lo usual es elegir las instancias al azar, para evitar que las agrupaciones u ordenamientos presentes en el conjunto original puedan dar lugar a distribuciones distintas. \n", "\n", "- Un paso más, especialmente importante cuando las clases objetivo están _desbalanceadas_ (es decir, hay muchos más ejemplos de una clase que de otras), es estratificar: elegir las instancias en cada una de las subclases, obligando a que la proporción sea la misma en el corpus de entrenamiento y en el de evaluación.\n", "\n", "\"Drawing\"\n", "\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Conjuntos de datos desbalanceados\n", "\n", "- Los conjuntos de datos donde el número de instancias de cada clase son muy diferentes, nos traen problemas para el aprendizaje, ya que un método que favorezca a la clase mayoritaria generalmente tendrá \"buenos resultados\" en términos de _accuracy_\n", "\n", "\"Drawing\"\n", "\n", "(Fuente de la imagen: User guide de la biblioteca imbalanced-learn)\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Conjuntos de datos desbalanceados: Oversampling\n", "\n", "- Oversampling: generar nuevas instancias de la clase minoritaria para equilibrar la cantidad de instancias de cada clase\n", "\n", "- Random oversampling: muestreo con repetición instancias de la clase minoritaria\n", "\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Conjuntos de datos desbalanceados: Oversampling\n", "\n", "- SMOTE: genero instancias \"sintéticas\" a partir de los vecinos más cercanos.\n", " - Dado $x_i$, considero sus k vecinos más cercanos y elijo uno ($x_{zi}$) y genero una nueva instancia $x_{new} = x_i + \\lambda (x_{zi} - x_i)$\n", " - Existen variantes de SMOTE que, por ejemplo, genera solamente a partir de instancias \"en peligro\" (al menos la mitad de los vecinos son de otra clase). \n", "\n", "\"Drawing\"" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Conjuntos de datos desbalanceados: Undersampling\n", "\n", "- Undersampling: reducir la cantidad de instancias de la clase mayoritaria\n", "\n", "- Random undersampling: elegir un subjconjunto aleatorio de instancias (Prototype Selection)\n", "\n", "- Nearmiss: elegir las instancias más cercanas a las de la clase minoritaria utilizando el algoritmo de vecinos más cercanos (Prototype Selection)\n", "\n", "\"Drawing\"\n", "\n", "\n", "- Mas info: imbalanced-learn User guide\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Conjuntos de datos desbalanceados: Undersampling\n", "\n", "- ClusterCentroids: dividir las instancias de la clase mayoritaria en N clusters y utilizar los centroides como nuevos instancias (Prototype generation)\n", "\n", "\"Drawing\"\n", "\n", "\n", "- Mas info: imbalanced-learn User guide" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Selección de atributos\n", "\n", "- Luego de que tenemos atributos \"candidatos\", nos gustaría quedarnos con aquellos que \"valen la pena\" para la tarea de clasificación que intentamos hacer. No hay una definición obvia de \"vale la pena\", pero nos interesan (para evitar ruido, y también por razones de eficiencia computacional) aquellos atributos que, en conjunto, sirvan para mejorar nuestra predicción. \n", "\n", "- El objetivo de la selección de atributos es eliminar atributos que son irrelevantes o redundantes. Por ejemplo: si tenemos dos atributos con valores idénticos, podemos eliminar uno de ellos. O si un atributo tiene siempre el mismo valor. O, por el contrario, todos sus valores son diferentes (en este caso, servirá como predictor perfecto de la clase objetivo si lo memorizamos, pero seguramente su capacidad de generalización será nula).\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Selección de atributos - Métodos de filtrado\n", "\n", "- Este tipo de métodos intentan evaluar (por separado) qué tan bueno es cada atributo. \n", "\n", "- Una forma muy básica: seleccionar los atributos que superan cierto valor de varianza. Se basa en la idea de que los atributos que valen siempre lo mismo seguramente no sean buenos predictores. Defecto: no utilizan la clase objetivo. \n", "\n", "- $ \\chi^2$ (chi-squared): cuando tenemos dos variables categóricas, podemos utilizar este método para estimar, a partir de los valores observadores y los esperados, si las dos variables son independientes. Cuanto mayor es el valor, mayor su correlación. Por lo tanto, podemos utilizar esta medida para obtener los atributos más correlacionados con la clase objetivo (y que, por lo tanto, deberían ser mejores predictores).\n", "\n", "\n", "- Ganancia de información: la ganancia de información, o información mutua de dos variables aleatorias es una medida (proveniente de la teoría de la información) que indica qué tanto podemos saber de una de ellas conociendo la otra, es decir qué tan dependientes son entre sí. Vale 0 sí y solo sí ambas variables son independientes. Por lo tanto, esta medida puede ser utilizada en forma análoga al test $ \\chi^2$ para eliminar atributos independientes de la clase objetivo." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Selección de atributos - Métodos _wrappers_\n", "\n", "- Este tipo de métodos de selección utilizan un método de aprendizaje para evaluar diferentes combinaciones de atributos y seleccionar la que obtenga mejores resultados sobre un dataset heldout separado, o vía cross-validation. Para que funcionen, el método debe ser capaz de asignar un valor de importancia a cada atributo, luego de entrenado el modelo. \n", "\n", "- Por ejemplo, el método de **eliminación recursiva de atributos** parte del conjunto inicial de atributos y, aplicando un método de aprendizaje (por ejemplo, árboles de decisión) sobre un conjunto de validación, elimina aquellos atributos menos importantes. Se repite el proceso hasta llegar a un cierto número de atributos deseados. " ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Selección de atributos - Métodos _embedded_\n", "\n", "- A diferencia de los anteriores, la selección de atributos es realizada por el mismo algoritmo de aprendizaje, durante el proceso de entrenamiento.\n", "\n", "- Un ejemplo ya visto en el curso es el de la selección de atributos que realizan los árboles de decisión.\n", "\n", "- Otro ejemplo, que veremos más adelante en el curso, son los métodos de regularización, que buscan generar modelos más \"sencillos\", para evitar el sobreajuste." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "Lectura: [An Introduction to Feature Selection](https://machinelearningmastery.com/an-introduction-to-feature-selection/) - Jason Brownlee" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## Fase 3: Entrenamiento\n", "\n", "\"Drawing\"\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Entrenamiento\n", "\n", "- Durante el entrenamiento, utilizamos los datos del conjunto de entrenamiento, y un algoritmo de aprendizaje, para generar un clasificador.\n", "\n", "- Una vez generado el modelo, lo evaluamos en el conjunto de evaluación para obtener una medida de su performance (veremos más adelante las principales medidas utilizadas).\n", "\n", "- Los algoritmos de entrenamiento tienen usualmente hiperparámetros que deberían ajustarse (e.g. profundidad máxima de un árbol en los árboles decisión). Usualmente lo que se hace es probar diferentes valores para cada parámetro y ver cuál obtiene mejores resultados. Como no queremos hacer esto sobre el corpus de evaluación (¿por qué?), utilizamos un subconjunto del corpus de entrenamiento, el corpus de validación (o corpus held-out). " ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Titanic: entrenamiento\n" ] }, { "cell_type": "code", "execution_count": 49, "metadata": { "slideshow": { "slide_type": "slide" } }, "outputs": [ { "data": { "image/png": "", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "from IPython.display import Image, display\n", "\n", "# Vamos a entrenar un árbol de decisión sobre los datos de entrenamiento\n", "from sklearn import tree\n", "clf = tree.DecisionTreeClassifier(criterion='entropy', max_depth=3 , min_samples_leaf=5)\n", "clf = clf.fit(X_train,y_train)\n", "\n", "dot_code=tree.export_graphviz(clf, feature_names=['age','sex','1st_class','2nd_class','3rd_class'])\n", "\n", "tree = graphviz.Source(dot_code)\n", "\n", "tree.render(filename='titanic', format='png')\n", "display(Image(filename='titanic.png'))" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Validación cruzada y selección de modelos\n", "\n", "- Para utilizar mejor el corpus de entrenamiento y no tener que separar datos para validación, una alternativa es realizar validación cruzada. Este método, además, permite disminuir la varianza de los resultados (ya que se obtiene como el promedio de varias evaluaciones), aunque es más costoso en términos de tiempo de entrenamiento.\n", "\n", "\"Drawing\"\n", "\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Validación cruzada y selección de modelos\n", "\n", "\n", "- En la validación cruzada, se divide el dataset de entrenamiento en k partes, y se utilizan (k-1) partes para entrenar, y la restante para evaluar el modelo. Este proceso se repite cambiando la parte elegida. \n", "\n", "- Se devuelve el promedio del valor de performance obtenido, y también la desviación estándar de los resultados.\n", "\n", "\"Drawing\"\n", "\n", "Fuente de las imágenes anteriores y lectura recomendada: [Cross-validation: evaluating estimator performance¶](https://scikit-learn.org/stable/modules/cross_validation.html)\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Titanic: ajuste de parámetros" ] }, { "cell_type": "code", "execution_count": 40, "metadata": { "slideshow": { "slide_type": "fragment" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Profundidad 1, Accuracy media: 0.786 (+/-0.010)\n", "Profundidad 2, Accuracy media: 0.833 (+/-0.013)\n", "Profundidad 3, Accuracy media: 0.827 (+/-0.013)\n", "Profundidad 4, Accuracy media: 0.825 (+/-0.013)\n", "Profundidad 5, Accuracy media: 0.823 (+/-0.011)\n", "Profundidad 6, Accuracy media: 0.825 (+/-0.012)\n", "Profundidad 7, Accuracy media: 0.823 (+/-0.012)\n", "Profundidad 8, Accuracy media: 0.824 (+/-0.014)\n", "Profundidad 9, Accuracy media: 0.824 (+/-0.014)\n", "Profundidad 10, Accuracy media: 0.826 (+/-0.014)\n" ] } ], "source": [ "from sklearn import metrics\n", "import scipy.stats\n", "\n", "# Hacemos cross validation para encontrar la mejor profundidad para el árbol\n", "for md in range(10):\n", " clf = tree.DecisionTreeClassifier(criterion='entropy', max_depth=md+1 , min_samples_leaf=5)\n", " kf=sklearn.model_selection.KFold(n_splits=5)\n", " scores=np.zeros(5)\n", " score_index=0\n", " for train_index, test_index in kf.split(X_train):\n", " X_train_cv, X_test_cv= X_train.iloc[train_index], X_train.iloc[test_index]\n", " y_train_cv, y_test_cv= y_train.iloc[train_index], y_train.iloc[test_index]\n", " clf = clf.fit(X_train_cv,y_train_cv)\n", " y_pred=clf.predict(X_test_cv)\n", " scores[score_index]=metrics.accuracy_score(y_test_cv.astype(int), y_pred.astype(int))\n", " score_index += 1\n", " print (\"Profundidad {0:d}, Accuracy media: {1:.3f} (+/-{2:.3f})\".format(md+1, np.mean(scores), scipy.stats.sem(scores)))" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## Fase 4: Evaluación\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "\n", "- El paso final es evaluar la performance del modelo (clasificador) obtenido sobre un conjunto de datos no vistos previamente. Hasta ahora, no hemos dicho cómo medimos esa performance\n", "\n", "- Imaginemos, en principio, un clasificador binario. \n", "- Supongamos que nuestras instancias de entrenamiento tienen una cierta distribución $D$, y que son independientes.\n", "\n", "\"Drawing\"\n", "\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Accuracy\n", "\n", "- Lo más sencillo es estimar el acierto (accuracy) o el error.\n", "\n", "\"Drawing\"\n", "\n", "$$ acc_s = \\frac{V_{azul} + V_{amarillo}}{V_{azul}+V_{amarillo} + F_{azul}+F_{amarillo}}$$ \n", "\n", "$$ error_s = \\frac{F_{azul} + F_{amarillo}}{V_{azul}+V_{amarillo} + F_{azul}+F_{amarillo}} = 1 - acc $$" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Accuracy\n", "\n", "Ejemplo: tenemos 100 instancias ($n = 100$) donde evaluar una hipótesis $h$, y dos clases posibles {1,0} (consideramos a la clase 1 como la clase positiva).\n", "\n", "Podemos construir la siguiente tabla, llamada _matriz de confusión_:\n", "\n", "| A | h(x)=1 | h(x)=0 | Total |\n", "|-----|----------:|----------:|-------:|\n", "| y=1 | $48_{TP}$ | $12_{FN}$ | 60 |\n", "| y=0 | $5_{FP}$ | $35_{TN}$ | 40 |\n", "| | 53 | 47 | 100 |\n", "\n", "Accuracy (¿cuántos casos predice h correctamente?) \n", "\n", "$$\n", "\\frac{TP + TN}{Total} = \\frac{48+35}{100} = 0.83\n", "$$\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Titanic: accuracy" ] }, { "cell_type": "code", "execution_count": 41, "metadata": { "slideshow": { "slide_type": "fragment" } }, "outputs": [], "source": [ "from sklearn import metrics\n", "def measure_performance(X,y,clf, show_accuracy=True, show_classification_report=True, show_confusion_matrix=True):\n", " y_pred=clf.predict(X) \n", " if show_accuracy:\n", " print (\"Accuracy:{0:.3f}\".format(metrics.accuracy_score(y,y_pred)),\"\\n\")\n", "\n", " if show_classification_report:\n", " print(\"Classification report\")\n", " print(metrics.classification_report(y,y_pred),\"\\n\")\n", " \n", " if show_confusion_matrix:\n", " print (\"Confusion matrix\")\n", " print (metrics.confusion_matrix(y,y_pred),\"\\n\")\n", " " ] }, { "cell_type": "code", "execution_count": 42, "metadata": { "slideshow": { "slide_type": "slide" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Accuracy:0.787 \n", "\n" ] } ], "source": [ "# Construimos un clasificador con el mejor parámetro, y entrenamos sobre todo el conjunto de entrenamiento\n", "\n", "clf_dt=tree.DecisionTreeClassifier(criterion='entropy', max_depth=2 ,min_samples_leaf=5)\n", "clf_dt.fit(X_train,y_train)\n", "measure_performance(X_test,y_test,clf_dt, show_classification_report=False, show_confusion_matrix=False)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Evaluación de hipótesis\n", "\n", "- ¿Es el error en la muestra un buen estimador del error \"real\"? ¿Cuál es la probabilidad de error de este estimador? \n", "\n", "Primero, definamos el error cometido por una cierta hipótesis en una muestra: \n", "\n", "$$\n", "error_s(h) \\equiv \\frac{1}{n}\\Sigma \\delta(y,h(x))\n", "$$\n", "\n", "donde $\\delta(x,y)$ es 1 si los valores de $x$ y $y$ son distintos, y 0 en otro caso.\n", "\n", "El error real es simplemente \n", "\n", "$$\n", "error_D(h) \\equiv P_{x \\in D} (y \\neq h(x))\n", "$$" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Evaluación de hipótesis\n", "\n", "Si \n", "- Nuestras hipótesis toman valores discretos\n", "- Nuestras instancias son independientes entre sí, y de la hipótesis\n", "- $n \\geq 30$\n", "- $error_s(h) = r/n$\n", "- $error_s(h)$ no está demasiado cercano a 0 o 1 (Regla: $n\\cdot error_s(h)(1-error_s(h))\\geq 5)$\n", "\n", "Entonces \n", "\n", "1. Un estimador no sesgado de $error_D(h)$ es $error_s(h)$\n", "2. El 95% de las veces, $error_d(h)$ cae en el intervalo (llamado _intervalo de confianza_):\n", "\n", "$$\n", "error_s(h) \\pm 1.96 \\sqrt{\\frac{error_s(h)(1 - error_s(h))}{n}}\n", "$$\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Evaluación de hipótesis\n", "\n", "Ejemplo: supongamos que nuestra hipótesis se equivoca en 12 de 40 instancias. Entonces, el intervalo de confianza 95% es: \n", "\n", "$$\n", "0.3 \\pm 1.96 \\sqrt {\\frac{0.3 \\times 0.7)}{40}} = 0.3 \\pm 0.14\n", "$$\n", "\n", "Si evaluamos sobre 4000 instancias, y nos equivocamos 1200 veces, el intervalo es: \n", "\n", "$$\n", "0.3 \\pm 1.96 \\sqrt {\\frac{0.3 \\times 0.7)}{4000}} = 0.3 \\pm 0.0014\n", "$$\n", "\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Evaluación de hipótesis\n", "\n", "¿De dónde salen esos valores? \n", "\n", "- Evaluar una hipótesis n veces y ver cuántas se equivoca es como tirar n veces una moneda y ver cuántas caras salen\n", "- La distribución es una binomial\n", "- La esperanza de una binomial es $np$, siendo $n$ el tamaño de la muestra y $p$ el valor a estimar\n", "- La desviación estándar de una binomial es $\\sigma = \\sqrt{np(1-p)}$\n", "\n", "Para una distribución binomial\n", "\n", "$error_s(h)=r/n$, por lo que $E[error_s(h)]=p$ \n", "\n", "por lo que el error en la muestra es un estimador no sesgado de p. \n", "\n", "- Para calcular la desviación estándar, sustituimos $p$ por nuestra estimación. \n", "\n", "\n", "$\\sigma_{error_s(h)} = \\sigma_{r/n} = \\sqrt{Var(r/n)} = \\sqrt{\\frac{1}{n^2} Var(r)} = \\frac{\\sigma_r}{n} = \\sqrt{\\frac{p(1-p)}{n}} \\approx \\sqrt{\\frac{error_s(h)(1-error_s(h))}{n}} $\n", "\n", "- Para calcular el intervalo de confianza, aproximamos la binomial con una distribución normal\n", "\n", "(Quien esté interesado en los detalles, puede consultar la sección 5.2 y 5.3 del libro de Mitchell)\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Precisión y Recuperación\n", "\n", "- El problema con el acierto y el error es que no tienen en cuenta el\n", "comportamiento en las distintas clases.\n", "- Si el 99% de las instancias son azules, la función constante azul tiene\n", "un acierto de 99%.\n", "- Se buscan alternativas para medir por clase: precisión, recuperación (_recall_)\n", "\n", "\n", "$$ precision = \\frac{V_p} {V_p + F_p} $$\n", "\n", "$$ recall = \\frac{V_p} {V_p+F_n} $$\n", "\n", " \n", "\n", "$V_p$ indica verdaderos positivos, es decir aquellos ejemplos que fueron clasificados correctamente\n", "\n", "$F_p$ indica falsos positivos, es decir aquellos ejemplos que fueron clasificados como positivos, pero eran negativos\n", "\n", "$V_n$ indica verdaderos negativos\n", "\n", "$F_n$ indica falsos negativos \n", "\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Precisión y Recuperación\n", "\n", "Ejemplo: tenemos 100 instancias ($n = 100$) donde evaluar una hipótesis $h$, y dos clases posibles {1,0} (consideramos a la clase 1 como la clase positiva).\n", "\n", "Podemos construir la siguiente tabla, llamada _matriz de confusión_:\n", "\n", "| A | h(x)=1 | h(x)=0 | Total |\n", "|-----|----------:|----------:|-------:|\n", "| y=1 | $48_{TP}$ | $12_{FN}$ | 60 |\n", "| y=0 | $5_{FP}$ | $35_{TN}$ | 40 |\n", "| | 53 | 47 | 100 |\n", "\n", "Precision (¿De los que h predijo positivos, cuántos lo eran?)\n", "\n", "$$\n", "\\frac{TP }{h(x)=1} = \\frac{48}{53} = 0.91\n", "$$\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Precisión y Recuperación\n", "\n", "Ejemplo: tenemos 100 instancias ($n = 100$) donde evaluar una hipótesis $h$, y dos clases posibles {1,0} (consideramos a la clase 1 como la clase positiva).\n", "\n", "Podemos construir la siguiente tabla, llamada _matriz de confusión_:\n", "\n", "| A | h(x)=1 | h(x)=0 | Total |\n", "|-----|----------:|----------:|-------:|\n", "| y=1 | $48_{TP}$ | $12_{FN}$ | 60 |\n", "| y=0 | $5_{FP}$ | $35_{TN}$ | 40 |\n", "| | 53 | 47 | 100 |\n", "\n", "Recall (¿Cuántos de los positivos pudo h predecir correctamente?)\n", "\n", "$$\n", "\\frac{TP }{y=1} = \\frac{48}{60} = 0.80\n", "$$\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Precisión y Recuperación\n", "\n", "¿Qué pasa si consideramos a 0 como la clase positiva? Es equivalente a repetir las medidas anteriores, pero con los números cambiados en filas y columnas.\n", "\n", "\n", "| A | h(x)=1 | h(x)=0 | Total |\n", "|-----|----------:|----------:|-------:|\n", "| y=1 | $35_{TP}$ | $5_{FN}$ | 40 |\n", "| y=0 | $12_{FP}$ | $48_{TN}$ | 60 |\n", "| | 47 | 53 | 100 |\n", "\n", "Accuracy (¿cuántos casos predice h correctamente?): $\\frac{TP + TN}{Total} = \\frac{35+48}{100} = 0.83$ \n", "\n", "Precision (¿De los que h predijo positivos, cuántos lo eran?): $\\frac{TP }{h(x)=1} = \\frac{35}{47} = 0.74$ \n", "\n", "Recall (¿Cuántos de los positivos pudo h predecir correctamente?): $\\frac{TP }{h(x)=1} = \\frac{35}{40} = 0.88$\n", "\n", "La precisión y el recall son siempre respecto a una clase positiva, el accuracy es una medida general. \n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Medida-F\n", "- Combinando precisión y recuperación se obtiene la medida-F (donde $\\beta$ indica cuánta más importancia se le da al recall respecto a la precisión) : \n", "\n", "$$F_\\beta = \\frac{(1+ \\beta^2) \\cdot precision \\cdot recall}{\\beta^2 \\cdot precision + recall}$$\n", "\n", "- En el caso de $F_1$, la formula queda reducida a:\n", "\n", "$$F_1 = \\frac{2 \\cdot precision \\cdot recall}{ precision + recall}$$\n", "\n", "- La medida-F es la media armónica entre precisión y recall, e intenta combinar ambas en un sólo número. \n", "\n", "Para una interesante discusión sobre por qué se utiliza la media armónica y no la media aritmética, sugerimos este artículo: [The truth of the F-measure](https://www.cs.odu.edu/~mukka/cs795sum09dm/Lecturenotes/Day3/F-measure-YS-26Oct07.pdf) - Yutaka Sasaki" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Medida-F\n", "\n", "\n", "Ejercicio: complete la siguiente tabla, para una clasificación sobre 100.000 instancias\n", "\n", "\n", "| $V_p$ | $F_p$ | $F_n$ | $V_n$ | Prec | Recall | $F_1$ | Accuracy |\n", "| :---: |:---: | :---: | :---: | :---: | :---: | :---: | :---: |\n", "| 25 | 0 | 125 | 99850 | 1.00 | 0.17 | 0.29 | 0.999 |\n", "| 50 | 100 | 100 | 99750 |0.33 | 0.33 |0.33 |0.999 | \n", "| 75 | 150 | 75 | 99700 | 0.33 | 0.50|0.40|0.998 | \n", "| 100 | 50 | 50 | 99800 | 0.67 | 0.67|0.67|0.999 |\n", "| 150 | 100 | 0 | 99750 | 0.60 |1.00| 0.75| 0.999 |\n", "\n", "- ¿Qué sucede con la accuracy? ¿Y con los otros valores? ¿Cuál de los clasificadores eligiría?\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Matriz de confusión\n", "\n", "Las matrices de confusión son muy útiles para visualizar cómo se comporta una hipótesis en problemas con varias clases. En el siguiente ejemplo (tomado de [aquí](https://www.blackhc.net/blog/2019/mnist-by-zip/)), se muestra una matriz de confusión para un clasificador de dígitos escritos a mano (que no funciona muy bien, dicho sea de paso...). En este caso, los valores fueron normalizados, esto es, varían entre 0 y 1 (¿imagina para qué?)\n", "\n", "\"Drawing\"\n", "\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Titanic: Precision, Recall, medida-F\n" ] }, { "cell_type": "code", "execution_count": 43, "metadata": { "slideshow": { "slide_type": "fragment" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Accuracy:0.787 \n", "\n", "Classification report\n", " precision recall f1-score support\n", "\n", " 0 0.77 0.94 0.84 202\n", " 1 0.85 0.54 0.66 127\n", "\n", " accuracy 0.79 329\n", " macro avg 0.81 0.74 0.75 329\n", "weighted avg 0.80 0.79 0.77 329\n", " \n", "\n", "Confusion matrix\n", "[[190 12]\n", " [ 58 69]] \n", "\n" ] } ], "source": [ "# Construimos un clasificador con el mejor parámetro, y entrenamos sobre todo el conjunto de entrenamiento\n", "measure_performance(X_test,y_test,clf_dt)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Problemas multiclase\n", "\n", "- ¿Qué sucede cuando se tiene un problema multiclase (es decir, hay más de dos categorías)?\n", "- Las medidas anteriores siguen valiendo, si consideramos como \"positivos\" a las instancias que pertenecen a una clase, y \"negativos\" al resto (one-versus-all).\n", "\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Problemas multiclase\n", "\n", "Supongamos que tenemos tres clases a,b,c, y la siguiente matriz de confusión: \n", "\n", "| A | h(x)=a | h(x)=b | h(x)=c | Total |\n", "|-----|----------:|----------:|----:|-------:|\n", "| y=a | $20$ | $10$ | $10$ | 30 |\n", "| y=b | $3$ | $21$ |$6$ | 30 |\n", "| y=c | $0$ | $1$ | $30$ | 40 |\n", "| | 23 | 41 | 46 | 100 |\n", "\n", "Accuracy (general) : $\\frac{20+21+30}{100} = 0.71 $\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Problemas multiclase\n", "\n", "Supongamos que tenemos tres clases a,b,c, y la siguiente matriz de confusión: \n", "\n", "| A | h(x)=a | h(x)=b | h(x)=c | Total |\n", "|-----|----------:|----------:|----:|-------:|\n", "| y=a | $20_{TP}$ | $10_{FN}$ | $10_{FN}$ | 30 |\n", "| y=b | $3_{FP}$ | $21_{TN}$ |$6_{TN}$ | 30 |\n", "| y=c | $0_{FP}$ | $1_{TN}$ | $30_{TN}$ | 40 |\n", "| | 23 | 41 | 46 | 100 |\n", "\n", "$Precision_A : \\frac{TP}{h(x)=a} = \\frac{20}{23} = 0.87 $\n", "\n", "\n", "$Recall_A$ : $\\frac{TP}{y=a} = \\frac{20}{30} = 0.67 $\n", "\n", "\n", "(Ejercicio, verifique $Pr_b=0.51$, $R_b=0.7$, $Pr_c=0.65$, $R_c=0.75$)\n", "\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Problemas multiclase\n", "\n", "- Esto nos da una medida por cada clase. Existen diferentes formas de resumir esa información:\n", "\n", " Se calcula la medida por clase, y luego se promedia los valores obtenidos (macro average)\n", " \n", " Se calcula la medida por clase teniendo en cuenta el aporte de instancias cada clase (micro average)\n", " \n", "En el ejemplo anterior: \n", "- La macro-average de la precision será $ \\frac{(Pr_a + Pr_b + Pr_c)}{3} = \\frac{0.87 + 0.51 + 0.65}{3} = 0.67 $\n", "- La micro-average será $ \\frac{20+21+30}{23+41+46} = 0.71 $ (en un problema multiclase, la micro es igual a la accuracy!)\n", "\n", "\n", "\n", "- Qué medida es más \"útil\", como toda medida, **depende de lo que queremos evaluar**:\n", " - La micro-average da más peso a las clases grandes en el análisis general\n", " - La macro-average permite evaluar mejor que tan \"equilibrado\" es el comportamiento de mi clasificador \n", " - En lo posible, reportar ambas y analizar según mi problema\n", " \n", "Lectura recomendada: [Should I make decisions based on micro-averaged or macro-averaged evaluation measures?](https://stats.stackexchange.com/questions/156923/should-i-make-decisions-based-on-micro-averaged-or-macro-averaged-evaluation-mea)\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Problemas multietiqueta\n", "\n", "\n", "- En un problema multietiqueta, hay más de una clase asociada a cada etiqueta, como en el siguiente ejemplo\n", "\n", "| Instancia | Clase | Predicción |\n", "| --- |:---: | :---: | \n", "| 1 | A,B | B,C | \n", "| 2 | A,B,C | A,C,D |\n", "| 3 | A,B | A,B |\n", "\n", "- Se pueden calcular las medidas utilizando solamente los ejemplos de cada clase, sin importar el resto. Esto permite utilizar las medidas mencionadas anteriormente\n", "\n", "- Se pueden aplicar otras medidas, como promediar el índice de Jaccard $IJ(A,B) = |A \\cap B| / |A \\cup B|$\n", "\n", "- En el ejemplo, $IJ(1)=1/3$, $IJ(2)=1/2$, $IJ(3)=1$, y por lo tanto el índice de Jaccard promedio será $0.61$\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "skip" } }, "source": [ "### Variables ordinales\n", "\n", "¿Qué pasa si queremos predecir variables ordinales (e.g. cantidad de córners de un partido)? \n", "\n", "\"Drawing\"\n", "\n", "Posible estadística: accuracy_n (predecir el valor d, o hasta d+n)\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Línea base y línea máxima\n", "\n", "- ¿Cómo sabemos si el resultado que obtuvimos es \"bueno\", o \"razonable\"?\n", "\n", "- El resultado depende del problema. \n", "\n", "- Siempre es bueno tener una línea base: una solución anterior sencilla, o un clasificador que elige siempre la clase más probable o según la distribución del conjunto de entrenamiento\n", "\n", "- También es útil (si es posible) tener una línea de tope, sobre todo en problemas donde no hay antecedentes. Típicamente, se pide a humanos que actúen como clasificadores y se evalúa su performance. \n" ] } ], "metadata": { "celltoolbar": "Slideshow", "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.9.13" } }, "nbformat": 4, "nbformat_minor": 4 }